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摘要 : 

本 文 以 九 九 文章 网 为 例 ， 详 细 地 介绍 了 大 数据 心理 学 研究 方法 。 利 用 用 户 实 
验 采 和 集 的 文本 数据 ， 提 取 词 频 特 征 ， 训 练 机 器 学 习 模 型 ,然后 利用 学 习 模 型 实现 
对 扑 取 的 九 九 文章 网 的 文章 对 应 的 生活 满意 度 进行 预测 , 帮助 大 数据 研究 初学 者 
对 整个 处 理 流程 有 直观 的 感受 。 本 文通 过 具体 实例 ， 介 绍 了 Python 和 情感 词典 
用 于 文本 的 词 频 计算 , 利用 scikit-learn 库 完成 对 机 器 学 习 模 型 训练 ,测试 及 应 用 ， 
并 结合 附带 的 源 程序 , 便于 读者 直接 操作 。 本 文 初步 介绍 了 基于 文本 词 频 的 机 器 
学 习 建 模 的 大 数据 研究 方法 , 对 于 其 中 技术 的 介绍 较为 基础 ,主要 强调 如 何 将 技 
术 进 行 应 用 ， 对 技术 原理 的 介绍 较 少 。 
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Abstract: 

This paper introduces the big data research method in psychology in details, taking 
Ninety-Nine Articles website as an example. Using the collected textual data, we 
calculated word frequencies as features, then trained machine learning models, and used 
models to predict life satisfaction for texts crawled from Ninety-Nine Articles website, 
providing inspiration and help for beginners in big data research. This paper introduces 
text-based word frequency calculation using Python and sentiment dictionary through 
specific examples, and completes the training, testing and application of the machine 
learning model using Python's scikit-learn library. Furthermore, we uploaded the 
accompanying source program for direct operation. This paper introduces the big data 
research method of machine learning modeling via text-based word frequency. Our 
article emphasizes how to apply the technology, and thus we introduce the technology 
in a more basic way with less involvement of the technical principles. 
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1. 引言 

随 着 信息 技术 的 不 断 发 展 ， 互 联网 使 用 过 程 中 衍生 出 的 海量 数据 成 为 最 具 价 
值 的 财富 。 各 种 数据 渗透 着 人 们 的 生活 ， 并 以 指数 级 的 速度 在 增长 ， 数 据 爆炸 中 
将 我 们 带 入 大 数据 时 代 。 大 数据 开始 蔓延 到 社会 的 各 行 各 业 从 而 影响 着 我 们 的 学 
习 、 工作 、 生活 以 及 社会 的 发 展 , 也 为 研究 人 员 开 展 研究 带 来 了 很 大 的 便利 231。 
互联 网 作为 海量 数据 的 最 主流 载体 之 一 ， 存 在 大 量 没有 被 有 效 利 用 的 数据 , 亟待 
人 们 去 挖掘 其 背后 的 价值 Python 作为 最 接近 自然 语言 的 计算 机 语言 , 学 习 起 来 
相对 简单 ， 成 为 人 们 进行 有 效 数据 挖掘 的 有 力 工具 。 

Python 作为 一 种 面向 对 象 的 计算 机 程序 语言 , 存在 着 丰富 的 库 和 应 用 程序 编 
程 接口 (APD， 可 以 满足 网 络 平台 中 多 元 化 数据 信息 的 挖掘 、 分 析 需 求 ， 能 够 实现 
对 海量 数据 信息 的 查找 、 保存 与 显示 四。 党 天 、 黄 天 羽 等 人 认为 相对 于 传统 c++， 
vb 等 教学 语言 ，Python 更 适合 非 计 算 机 专业 的 学 生 , 教学 的 应 用 场景 更 广 四。 郑 
载 明 认为 Python 具有 简单 易学 、 丰 富 的 类 库 ， 优 良 的 可 扩展 性 和 可 移植 性 等 特 
点 ,非常 适合 培养 学 生 的 计算 思维 中 。2021 年 10 月 ,Python 在 TIOBE 排名 榜 上 
超过 C 语言 和 Java， 荣 升 第 一 。 

大 数据 时 代 背 景 下 ，Python 无 疑 是 进行 大 数据 研究 的 得 力 助手 。 基 于 当下 人 
们 掌握 Python 的 现实 状况 ， 本 文 将 结合 实际 数据 ， 分 四 个 步 又 介绍 如 何 使 用 
Python 开展 大 数据 心理 学 研究 : Python 基本 入 门 介绍 ; 爬虫 网 络 数据 下 载 ; jieba 
分 词 及 词 频 统计 ; 机 器 学 习 模 型 的 训练 、 测 试 及 应 用 。 同 时 ， 结 合 本 文 附带 的 源 
代码 和 数据 ,可 以 帮助 相关 人 员 逐 步 了 解 开展 大 数据 心理 学 研究 的 主要 技术 ,并 
通过 运行 相关 的 程序 对 研究 过 程 进 行 实 际 操作 , 其 中 的 部 分 处 理 程序 也 可 以 运用 
在 自己 开展 的 课题 研究 中 。 


2. Python 简介 

Python 是 一 门 简单 ， 可 视 化 程度 高 的 编程 语言 ， 简 单 易学 ， 功 能 强大 ， 同 
时 有 高 效率 的 高 层 数 据 结 构 ， 能 够 简单 、 有 效 地 实现 面向 对 象 编程 。Python 具 
有 简洁 的 语法 ， 支 持 动态 输入 ， 是 解释 性 语言 。 在 大 多 数 平台 上 ， 对 于 众多 领 
域 ，Python 都 是 一 个 理想 的 开发 语言 。 

Python 是 免费 开源 的 ， 具 有 很 好 的 可 移植 性 ， 可 以 运行 在 Unix 衍生 系统 、 
Win32 系统 、 掌 上 平台 《掌上 电脑 /手机 ) 以 及 游戏 控制 台 (PSP) 等 等 。 


Python 拥有 庞大 的 标准 库 ， 包 括 正则 表达 式 、 文 档 生 成 、 单 元 测试 、 线 程 、 数 
据 库 、 网 页 浏览 器 、 机 器 学 习 等 。 此 外 ， 还 有 其 他 高 质量 的 库 ， 如 wxPython、 
Twisted 和 图 像 库 等 

人 们 可 以 通过 Python 的 官方 网 站 进行 下 载 安 装 : http:/www.python.org。 一 
Unix 衍生 系统 可 能 预 安装 了 Python， 在 命令 行 对 话 框 中 键入 “python” 即 可 显 
示 版 本 信息 。 安 装 Python 其 实 很 简单 ， 和 安装 其 他 软件 类 似 ， 并 且 网 上 有 许多 
开放 的 安装 教程 可 供 参考 。 网 络 上 也 有 很 多 的 Python 编程 学 习 教 程 : 

W3school 在 线 教程 : https:/www.w3school.com.cn/python/index.asp 


简明 教程 : https:/www.woodpecker.org.cn/abyteofpython cn/chinese/ 
Python3 教程 : https:/www.runoob.com/python3/python3-tutorial.html 
吸 木 鸟 社区 : https://wiki.woodpecker.org.cn/moin/ 


3. Python 编程 基础 

在 Python 编程 中 ， 数 据 类 型 是 一 个 重要 的 概念 。 变 量 可 以 存储 不 同类 型 的 
数据 ， 并 且 不 同类 型 可 以 执行 不 同 的 操作 。Python 中 有 六 个 标准 的 数据 类 型 : 
Number (数字 )，String (字符 串 )，List (列表 )，Tuple (元 组 )，Set (集合 )， 
Dictionary〔 字 典 )。 其 中 ， 不 可 变数 据 包括 : Number〔 数 字 )、String〈 字 符 
串 ) 和 Tuple (元 组 )， 可 变数 据 包 括 List (列表 )、Set (集合 ) 和 Dictionary 
《字典 )。 


表 1 Python 的 基本 数据 类 型 
基本 数据 类 型 包括 的 种 类 说 明 
int (整数 ) 在 数字 中 ， 正 整数 、0、 负 整数 都 称 为 整 型 。 
float( 浮 点 数 ) ， 含 有 小 数 点 的 数据 都 是 浮 点 型 。 
Number 〈 数 字 ) ”bool (布尔 型 ) ， 只 有 两 种 情况 : True、False， 表 示 真 假 。 


复数 为 实数 加 虚数 ， 只 要 存在 虚数 ， 此 数据 类 型 就 为 
complex( 复 数 ) 复数 类 型 ， 如 3j 
String( 字 符 串 ) Str 由 引号 括 起 来 的 都 是 字符 串 ， 如 ”*123”、“hello? 
. list 可 获取 ， 可 修改 ， 有 序 。 正 向 索引 : 0、1、2、3...... 
List( 列 表 ) 道 向 索引 : -1、-2、-3、-4、-5...... 
To CA tuple 可 获取 、 不 可 修改 、 有 序 。 索 引 时 的 正 向 与 逆向 下 标 
与 列表 相同 。 
pe set 无 序 、 不 可 修改 、 自 动 去 重 。 引 时 的 正 向 与 逆向 下 标 
Set( 集 合 ) 与 列表 相同 。 
Dictionary (字典 ) dict 以 键 值 对 的 形式 存储 数据 ， 通 过 键 来 获取 和 修改 值 。 


使 用 type0 函数 可 以 获取 任何 对 象 的 数据 类 型 ， 使 用 print () 函数 可 以 对 
结果 进行 打印 ， 可 参见 prog\simp-1-hello-world.py。 

Python 运算 符 用 于 对 变量 和 值 执行 操作 ,分 为 : 算术 运算 符 ， 赋 值 运算 符 ， 
比较 运算 符 ， 逻 辑 运 算 符 ， 里 份 运算 符 ， 成 员 运 算 符 ， 位 运算 符 。Python 运算 
符 的 使 用 参见 prog\simp-5-exp.py。 在 Python 编程 中 ， 让 语句 用 于 控制 程序 的 
执行 。 用 这 关键 字 表 示 判 断 条 件 ， 当 判断 条 件 成 立时 ， 则 执行 后 面 的 语句 ， 执 
行 的 语句 可 以 多 行 ， 以 缩 进来 区 分 ， 表 示 同 一 个 判断 条 件 的 执行 内 容 。elif 关键 
字 是 对 “如 果 之 前 的 条 件 不 正确 ， 那 么 试 试 这 个 条 件 ” 的 表达 方式 。else 关键 字 
可 以 用 来 捕获 未 被 之 前 的 条 件 捕获 的 所 有 情况 。 示 例 代码 参见 prog\simp-6- 


ifelse.py。 


# 判断 成 绩 
x=88 
print( 成 绩 为 :', x) 
if(x >= 85): 
print(" 优 ") 
elif(x >= 75): 
print(" 良 ") 
elif(x >= 60): 
9. print(" 中”) 
10. else: 
11. print( 差 '") 


Python 的 while 语句 用 于 循环 执行 程序 ， 即 在 某 种 条 件 下 ， 循 环 执行 某 段 
程序 ， 以 处 理 需要 重复 处 理 的 相同 任务 。 示 例 代 码 来 自 prog\simp-7-while.py。 


在 while 循环 中 ， 只 要 条 件 为 真 ， 就 可 以 执行 一 组 语句 。 
1.# 利用 循环 ， 打 印 出 10 以 内 两 个 不 同 数字 的 组 合 
2. i=0 

3. whilei< 10: 

4. j=i+l 

5 

6 

7 


ERROR 


while j < 10: 
print(i,: ',J) 
iit1 
8. i=1 二 1 
在 While 循环 中 ， 使 用 break 语句 ， 即 使 while 条 件 为 真 ， 也 可 以 终止 循 
环 。 使 用 continue 语句 ， 可 以 跳出 当前 这 个 欠 代 ， 然 后 继续 下 一 个 欠 代 。 
for 循环 用 于 友 代 序列 “〈 即 列表 ， 元 组 ， 字 典 ， 集 合 或 字符 串 )， 序 列 可 以 
从 0 开始 索引 ， 以 小 于 序列 的 长 度 结束 ， 并 且 可 以 被 切 分 。 示 例 代 码 来 自 
prog\simp-9-for.py。 通 过 使 用 for 循环 ， 可 以 为 列表 、 元 组 、 集 合 中 的 每 个 项 
目 执行 相同 的 一 组 语句 。 


1 # 遍 历 打 印 num 列表 中 所 有 的 数 

2. num= [1, 92, 3, 6, 88, 9, 2, 76, 8, 43, 78, 786, 8, 10] 
3. for x in num: 

4 print(x) 


此 外 ， 在 for 循环 中 ， 使 用 break 关键 字 ， 可 以 在 循环 遍历 所 有 项 目 之 前 终 
止 循环 。 使 用 continue 关键 字 ， 可 以 停止 循环 的 当前 迭代 ， 并 继续 下 一 个 迭 
代 。else 关键 字 在 for 循环 中 可 以 指定 循环 结束 时 要 执行 的 代码 块 。 

函数 是 一 种 仅 在 调用 时 运行 的 代码 块 ， 可 以 将 数据 〈 称 为 参数 ) 传递 到 函 
数 中 ， 可 以 在 函数 名 后 的 括号 内 指定 参数 。 函 数 可 以 把 数据 作为 结果 返回 。 一 
般 要 先 对 函数 进行 定义 才能 调用 ， 示 例 代 码 来 自 prog\simp-4-function.py。 在 


Python 中 ， 使 用 def 关键 字 来 定义 函数 : 


# 定义 一 个 相 乘 的 函数 

def multiply(a, b, c): 
print( 函 数 输入 : ) 
print(a = ", a) 
print(b = ", b) 
print(c = ", c) 
Zz=a*b*ce 


print(' 函 数 输出 : , 刀 
. returnz 
在 函数 名 称 后 跟 括 号 来 调用 函数 : 
1.，# 直接 调用 该 函数 
2. print(a * b*c=", multiply(%, 9, 7)) 
3. print(a * b*c=", multiply(S, 4, 70)) 
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4. 扑 虫 网 络 数据 下 载 

网 络 息 虫 是 一 种 按照 一 定 规 则 ， 自 动 地 抓 取 网 页 信息 的 程序 ， 它 的 基本 工 
作 方 式 是 模拟 人 工 的 操作 。 本 节 主 要 介绍 网 络 息 虫 技术 的 工作 流程 ， 结 合 实际 
案例 来 讲解 基于 Python 的 网 络 数 据 下 载 过 程 。 

传统 候 虫 从 一 个 或 若干 初始 网 页 的 URL 开始 ， 获 得 初始 网 页 上 的 URL， 
在 抓 取 网 页 的 过 程 中 ， 不 断 从 当前 页 面 上 抽取 新 的 URL 放 入 队列 ,直到 满足 系 
统 的 一 定 停止 条 件 。 如 图 1 所 示 ， 网 络 爬 虫 的 基本 工作 流程 如 下 : 〈1) 首先 选 
取 一 个 或 多 个 URL 作为 种 子 URL; (2) 将 选取 的 种 子 URL 放 入 到 待 抓 取 
URL 中 ; (3) 依次 从 待 抓 取 URL 队列 中 取出 URL， 对 URL 的 DNS 进行 解 
析 ， 获 得 主 服 务 器 IP， 并 将 网 页 下 载 下 来 ， 保 存 到 数据 库 中 。 然 后 将 该 URL 


放 入 已 抓 取 URL 队列 中 ; (4) 分 析 已 抓 取 URL 队列 中 的 UREL， 得 到 另 一 些 
URL， 再 次 放 入 待 抓 取 URL 队列 ， 从 而 继续 循环 下 去 [5]。 


对 鸡 


1 网 络 怜 虫 的 基本 工作 流程 
我 们 这 里 以 万 九 文 章 网 为 例 ， 爬 取 其 中 文章 的 标题 及 内 容 ， 疏 取 目标 网 站 
链接 : httwpAWww.99wenzhangwang.com/article/A168491.htm/l， 将 文章 标题 和 内 


容 保 存在 本 地 txt 文件 中 。 本 案例 在 Python3.8 环境 下 完成 ， 完 整 代 码 见 
prog\www-9-99wz-sample.py， 网 络 数据 下 载 可 以 归 为 获取 数据 、 解 析 数 据 ， 提 
取 数 据 ， 储 存 数据 四 个 步骤 。 

疏 虫 程序 会 根据 我 们 提供 的 网 址 ， 向 服务 器 发 起 请 求 ， 然 后 返回 数据 。 获 
取 数 据 需要 用 到 requests 库 ，requests 库 可 以 下 载 网 页 源 代 码 、 文 本 、 图 片 ， 甚 
至 是 音频 。 由 于 requests 库 不 是 Python 标准 库 ， 需 要 单独 安装 它 。 在 终端 输 
入 : pip install requests (Mac 电脑 输入 pip3 install requests )， 安 装 完成 后 即 可 使 
用 。 使 用 requests 库 中 的 get(0) 方 法 癌 服务 器 发 送 请 求 ， 疝 服务 器 发 出 请 求 后 ， 


服务 返回 的 是 一 个 带 有 HTML 文档 的 数据 包 。 具 体 代码 如 下 : 


1. #3 引入 requests 库 ，bs4 库 
. import requests 
. from bs4 import BeautifulSoup 


2 
3 
4.# 发 送 请 求 ， 并 把 响应 结果 赋值 在 变量 +r 上 
5 
6 
Y 


. I=requests.get('http:/Wwww.99wenzhangwang.com/article/18491.html') 
，# 解 决 中 文 乱码 


. I.encoding =r.apparent encoding 


HTML 全 称 为 Hypertext Markup Language( 超 文本 标记 语言 )， 是 一 种 用 于 创 
建 网 页 的 标准 标记 语言 。 标 记 语 言 就 是 把 文本 和 文本 以 外 的 相关 信息 (例如 大 
小 ， 高 度 ， 颜 色 ， 位 置 等 ) 组 合 在 一 起 的 语言 。 如 图 2 所 示 ，HTML 和 Python 
样 有 着 明显 的 层级 结构 。 图 中 一 共有 三 组 基本 元 素 ， 分 别 是 html 元 素 
(<html></html>)，head 头 元 素 (<head></head>)， 和 body 主体 元 素 
C<body></body>)。 头 部 元 素 ， 一 般 用 来 设置 网 页 的 编码 ， 添 加 网 页 标签 的 
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logo， 小 标题 ， 外 部 文件 引用 等 。 主 体 元 素 负责 定义 网 页 窗口 内 的 所 有 内 容 ， 
是 今后 我 们 重点 关注 的 对 象 。 元 素 中 用 尖 括 号 〈<> 和 </>) 括 起 来 的 字母 和 英文 
是 标签 ， 用 于 标记 文本 信息 。 其 中 align 和 style 为 属性 ， 用 来 定义 元 素 的 样 
式 。 我 们 一 般 就 是 根据 标签 名 和 属性 值 来 定位 我 们 想 要 数据 的 位 置 。 


<!DOCTYPE html> ## 全 局 声明 ， 这 是 一 个 html 文 档 
<html> #html 文 档 (开始 ) 
<head> # 文 档 头 (开始 ) 
<title> 九 九 文章 网 </title> # 文 档 的 标题 
</head> # 文 档 头 (结束 ) 
<body> # 文 档 体 (开始 ) 
<h1 align='center style='color: #20b2aa;" >HTML 介 绍 </h1> # 一 级 标题 
<Pp> 第 一 段 </p> # 有 段落 
</body> # 文 档 体 (结束 ) 
</html> #html 文 档 (结束 ) 


图 2 HTML 文档 结构 
解析 网 页 有 正则 表达 式 、BeautifulSoup、 lxml 等 多 种 方式 ， 每 种 方式 各 
有 特色 ， 可 结合 实际 进行 选择 。 本 案例 中 使 用 BeautifulSoup 对 网 页 进行 解析 。 
由 于 BeautifulSoup 4 库 不 是 Python 标准 库 ， 我 们 需要 单独 安装 它 ， 安 装 方法 同 
上 。BeautifulSoup 解析 数据 时 需要 输入 两 个 参数 ， 第 一 个 参数 为 要 解析 的 文 
本 ， 必 须 为 字符 串 类 型 。 第 二 个 参数 用 来 标识 解析 器 ， 我 们 用 的 是 一 个 Python 


内 置 库 : htmlparser。 有 具体 代码 如 下 : 


1，# 把 网 页 解析 为 BeautifulSoup 对 象 
2. soup = BeautifulSoup(r.text,'html.parser') 


将 获取 的 网 页 解析 为 BeautifulSoup 对 象 后 ， 需 要 通过 标签 和 属性 来 获取 想 
要 的 数据 位 置 。 这 里 通过 在 Chrome 浏览 器 中 安装 SelectorGadget 插件 确定 标 
签 ， 标 签 确定 方法 如 图 3， 插件 安装 和 使 用 见 software\chrome\install.pdf。 标 
签 确定 后 ， 使 用 fnd0 和 find_all0 方 法 来 提取 数据 。find0 方 法 返回 符合 要 求 的 
首 个 数据 ;find all0 方 法 以 列表 形式 返回 所 有 符合 要 求 的 数据 ， 需 通过 遍历 列 


表 提 取 所 需 数据 ， 有 具体 代码 如 下 : 
# 用 find0 把 符合 要 求 的 首 个 数据 提取 出 来 ,并 赋值 给 变量 title 
title = soup.find('h2') 
# 用 find all0 把 符合 要 求 的 所 有 数据 提取 出 来 ， 并 赋值 给 变量 contents 
contents=soup.find(class ='hl body').find all(p) 
# 定 义 一 个 空 列表 
content="" 
# 志 历 contents 列表 ， 提 取 列 表 中 的 文字 并 赋值 给 content 
for para in contents: 
if len(para)>0: 
0. content += para.text 


jk 
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mob -7 
tet 2 点 击 需 要 提取 的 |。 sy 
内 容 会 变 成 绿 


二 4 卫 王者 但 人 生 六 起 起 请 


3. 黄 色 表 示 如 果 使 用 同样 的 wx 
标 签 ， 也 将 同时 被 提取 


下 % 4 点 击 不 想 需 要 的 黄 | 5 计 是 只 可取 出 级 下 
色 部 分 ， 变 为 红色 色 部 分 内 容 的 标签 
3 标签 确定 方法 


在 所 需 数据 提取 出 来 后 ， 需 要 储存 数据 。 数 据 存储 的 方式 有 多 种 ， 可 以 保 
留 在 普通 文件 中 ， 如 txt、csv，Excel 等 ; 也 可 以 存储 在 数据 库 中 ， 如 
MySQL。 本 案例 中 将 扑 取 到 的 数据 写 入 txt 文件 中 。 文 件 保存 需要 三 步 : 打开 


文件 一 写 入 文件 一 关闭 文件 。 具 体 代码 如 下 : 

省 训 用 六 全 

file = open(99wenzhang.txt','w',encoding="utf8") 
# 写 入 文件 

file.write(title.text) 

file.write(\n') 

file.write(content) 

# 关 闭 文件 

8. file.close() 


数据 保存 结果 如 图 4: 


人 生 经 历 了 才 党 深 多 得 人 生 的 起 起 葵 著 总 会 有 一 些 情 剑 需要 安 人 生 


bad Des 


你 要 错过 很 多 人 ， 才 知道 拓 产 对 的 人 。 要 更 过 很 多 不 同 种 类 的 饮料 ， 才 会 恤 得 回答 白开水 的 平淡 。 要 司空 见 慌 类 市 的 碎 其 ， 才 会 想 令 骨 轩 的 安 移 。 要 买 过 很 多 衣服 ， 才 知道 于 款 才 是 经 典 。 交 然 想 到 有 个 史 昌 


人 生 ， 经 历 7 才 深 深 卉 得 ， 人 生 的 起 起 落落 ， 总 会 有 一 些 情 剑 项 要 安静 占 味 ， 总 会 有 一 些 既 历 需 要 狐 自 体会 ， 总 会 有 一 段 路 需要 一 个 人 走 ， 总 会 有 一 些 事 需 要 坦然 而 对。 经 近 滑 落 拱 突 的 光 骨 ， 所 有 那些 静 灌 的 时 光 ，# 
放下 全 世 纷 纷 沈 纺 ， 不 计较 过 去 ， 不 执着 未 来 ， 不 纠结 当下 ， 得 到 的 ， 失 去 的 ， 付 出 的 ， 收 区 的， 都 是 成 全 人 生 的 章 章 节 节 ， 拓 有 的 就 万 分 涂 异 ， 错 过 的 ， 就 看 做 人 世人 烟 ， 不 鳃 恋 愉 借 ， 一 切 顺 其 自然 , 计 


不 站 ,不过 ,为 了 自己 加 油 ， 别 束 ， 别 束 ， 为 了 自己 抬头 ， 你 的 走 ， 我 不 能 留 ， 我 只 能 巡 自 己 加 油 ， 为 自己 抬头 ， 我 不 会 因 你 的 走 而 匡 度 ， 因 为 我 是 情场 高 手 ， 但 高 手 也 会 泪 流 ，。 司 伤 ， 刻 有 ? 泻 京 ， 哪 有 ? 
在 生命 里 出 现 的 每 个 人 ， 都 有 原因 ， 喜 欢 你 的 人 给 了 你 温 生 和 勇气 ， 你 寄 欢 的 人 让 你 学 会 了 爱 和 自持 ， 你 不 喜欢 的 人 教会 了 你 宽容 妾 重 ， 不 讲 欢 你 的 人 让 你 知道 了 自省 成 长 ， 没 有 人 会 无 娘 无 故 出 现在 你 生 主 


有 站 东西 ， 无 论 别 人 说 的 再 好 ， 说 的 再 坏 ， 只 有 在 你 自己 亲身 经 历 之 后 ， 才 知道 它 是 好 的 ? 还 是 不 的 ?就 像 嘲 渤 一 样 ， 是 基 是 耐 ， 只 有 唱 的 人 才 会 知道 ， 而 我 们 永远 只 是 沉浸 在 别人 的 故事 里 ， 留 自己 的 前 
( 染 源 : 风光) 


图 4 保存 结果 示例 
依据 同样 方式 ， 可 以 建立 特定 网 站 的 网 络 息 虫 ，prog\Wwww-1~7-*.py 的 7 
个 Python 程序 逐步 介绍 了 针对 中 科 院 心理 所 通知 公告 栏 的 息 虫 实现， 
prog\Wwww-8-99wzsave.py 则 是 针对 九 九 文章 网 的 某 一 特定 栏目 的 文章 下 载 。 


5. jieba 分 词 及 词 频 统 计 

文本 数据 进行 机 器 学 习 涉 及 到 的 关键 问题 之 一 是 如 何 得 到 可 作为 输入 数据 
的 文本 数据 特征 。 原 始 的 文本 数据 一 般 情 况 下 被 表示 由 字符 组 成 的 字符 串 ， 首 
先 ， 机 器 学 习 模型 一 般 无 法 直接 对 字符 类 型 的 数据 进行 处 理 ， 其 次 ， 不 同 的 文 
本 数据 字符 长 度 往往 不 同 ， 而 机 器 学 习 模 型 一 般 要 求 输入 数据 具有 相同 的 维 
度 。 因 此 ， 在 对 于 文本 数据 进行 机 器 学 习 模型 建 模 时 ， 需 要 首先 对 原始 文本 数 
据 进 行 处 理 ， 得 到 可 以 用 数值 表征 的 文本 数据 特征 ， 其 主要 处 理 技术 和 相关 流 
程 如 图 $ 所 示 。 


文本 清洗 向 量 空间 模型 
分 词 神经 网 络 嵌 入 模型 
去 除 停 用 词 主题 模型 


图 5 文本 数据 特征 获取 主要 技术 及 相关 流程 

在 将 原始 文本 数据 转换 为 数值 表征 的 文本 数据 特征 的 过 程 中 ， 首 先 要 对 原 
台 文本 数据 进行 文本 预 处 理 。 预 处 理 的 第 一 步 是 对 于 原始 文本 进行 文本 清洗 。 
由 于 原始 文本 数据 很 多 时 候 具 有 空格 或 者 是 其 他 一 些 无 用 的 符号 ， 如 果 保 留 这 
些 符号 ， 分 词 结果 中 也 会 体现 这 些 符号 ， 一 方面 这 些 符号 对 于 词 频 统计 过 程 产 
生 干 扰 ， 男 一 方面 这 些 无 用 符号 并 不 是 我 们 所 需要 的 文本 数据 特征 。 因 此 需要 
对 无 用 符号 进行 蔡 换 或 者 删除 ， 这 个 过 程 被 称 为 文本 清洗 。 

其 次 是 分 词 过 程 ， 分 词 就 是 将 连续 的 字符 序列 按照 一 定 的 规范 重新 组 合成 
语义 独立 词 序列 的 过 程 。 英 文 行文 中 ， 单 词 之 间 以 空格 作为 自然 分 界 符 ， 中 文 
的 词 没 有 形式 上 的 分 界 符 ， 对 中 文 文本 进行 分 词 具 有 一 定 的 难度 。 但 目前 已 有 
多 种 技术 和 软件 实现 了 对 于 中 文 文本 进行 分 词 ， 本 文 将 要 介绍 的 基于 Python 
编程 语言 的 Jieba 便 是 其 中 一 种 分 词 工具 ， 参 见 progNjieba-1-seg.py。 


文本 数据 处 理 的 最 后 一 步 是 去 除 停 用 词 (progNiieba-2-stopwords.py)。 停 用 
词 可 以 简单 地 被 理解 为 不 被 纳入 词 频 统计 的 词语 。 在 中 文 文本 处 理 中 ， 此 类 词 
一 般 为 介词 、 助 词 或 者 副词 等 ， 停 用 词 表 根据 词 频 统计 任务 目的 的 不 同 而 不 
同 。 


对 于 文本 数据 进行 预 处 理 后， 需要 将 文本 数据 转换 为 数值 类 型 ， 这 一 过 程 
被 称 为 文本 表示 。 文 本 表示 过 程 主要 有 三 大 主要 模型 ， 分 别 是 向 量 空 间 模 型 、 
神经 网 络 谍 入 模型 和 主题 模型 。 向 量 空间 模型 将 文本 数据 表示 为 向 量 空间 中 的 
点 ， 其 关键 在 于 特征 向 量 的 选取 和 特征 向 量 的 权 值 计 算 两 个 部 分 。 神 经 网 络 浅 
入 模型 采用 深度 学 习 的 方法 ， 实 现 离 散 的 文本 数据 变量 到 连续 数字 向 量 的 映 
射 。 主 题 模型 以 无 监督 学 习 的 方式 对 文本 的 隐 含 语义 结构 进行 聚 类 的 统计 学 模 
型 。 词 频 统计 过 程 可 以 被 认为 是 向 量 空间 模型 的 一 种 简化 模式 ， 它 通过 预先 设 
定 的 词典 文件 对 于 文本 数据 中 不 同 词类 出 现 的 频率 进行 统计 分 析 ， 得 到 每 个 文 
本 的 词类 频率 向 量 ， 这 些 词 类 频率 向 量 可 以 直接 用 于 后 续 的 监督 学 习 过 程 或 者 
统计 分 析 。 

本 节 以 通过 九 九 文章 网 肘 取 的 部 分 文章 作为 原始 文本 数据 ， 以 大 连理 工 情 
感 词 典 和 微 博客 基本 情绪 词 库 为 词典 文件 对 于 文本 进行 分 词 处 理 和 词 频 统 计 。 
其 中 ， 大 连理 工 情感 词典 包含 快乐 、 安 心 、 尊 敬 等 共 21 个 词类 ， 微 博客 基本 情 
绪 词 库 包含 快 乐 、 悲 伤 、 慎 她 、 仆 惧 和 厌恶 共 5 个 词类 。 首 先 对 于 不 同 词类 的 


il 


过 


标识 进行 定义 ， 本 节 中 的 示例 代码 参见 prog\swls-2-jieba-affect-exportpy: 
1. affect col list=['PA', 'PE','PD','PH','PG',PB','PK, 

NANBNJJNHPFNINCY 

NG'NE'ND'NN'NK' NLPC'， 

MH', "MS', "MA', MD', 'ME,, 

下 NT Ne | 


ER 


在 使 用 Jieba 进行 分 词 和 词 频 统计 之 前 ， 首 先 要 对 词典 文件 和 停 用 词 表 进 


行 载 入 ， 载 入 情感 词典 的 步 又 如 下 : 
def load affect dict(filepath): 


全 


2 m affectdict = [] 

3; for m col in affect col list: 

4. micol sill 

3. m affectdict.append(m col) 

6. for m line in open(filepath, T, encoding='utf-8').readlines(): 
7. m line=m line.strip() 

8. kwd = m line.split(\t)[01.strip() 

9. col=m line.split(\t)[11].stripO) 

10. m affectdict[affect col list.index(col)].append(kwd) 
ll. return m affectdict 

[2 


13. # 载 入 情感 词典 
14. affect dict file = '../data/dict-affect.txt 
15. affect dict = load affect dict(affect dict file) 


17. # 载 入 情感 词典 中 的 词 做 为 自 定义 词典 
18. jieba.load userdict('"../data/jiebaload affect dict.txt") 
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载 入 停 用 词 表 的 步骤 如 下 : 
1.# 创建 停 用 词 list 
2. def load stopwords(filepath): 
E m_ stopwords = [line.strip() for line in open(filepath, 'r', encoding="utf- 
8").readlines()] 
return m stopwords 
# 载 入 停 词 表 
stop Word file = '../data/stop words cn.txt' 
stopwords = load stopwords(stop word file) 


站 


载 入 中 文 停 用 词 表 和 大 连理 工 情 感 词典 以 及 微 博客 基本 情绪 库 后 ， 可 以 使 
用 jieba 对 于 文本 进行 分 词 和 去 停 词 处 理 ， 并 对 于 不 同 词类 的 词 频 进 行 统计 ， 


最 终 得 到 文本 中 情感 词典 各 个 词类 的 词 频 。 具 体 代码 如 下 : 
1.，# 读 入 一 个 数据 文件 ， 返 回 得 分 、 性 别 和 自我 描述 


2. defread swls file(fname): 

3 #print(fname) 

4. fr swls = open(fname, 'r', encoding='UTF-8-sig') 
5S: x swls strs=fr swls.readlines() 
6 

& 

8 


位 Score = int(x swls_ strs[0].strip(\n')) 
fr gender = x swls_strs[1].strip(\n') 

fr desc=" 
9， # 删 除 得 分 和 性 别 行 
10. x swls strs.pop(0) 
ll. x swls strs.pop(0) 
12. for swls strin x swls strs: 
13. fr desc += swls_str.strip().strip(\n')+"" 
14. fr swils.close() 
15. return fr score, fr gender, fr desc 
16. # 对 每 个 用 户 的 自述 文件 进行 处 理 ， 统 计 各 个 情绪 分 类 的 比率 
17. for fdata in Swls_files: 
18. print(fdata) 
19. str export=" 


21. X score,x gender, x desc=read swls file(swls dir+fdata) 
22. str export += Str(X_ Score) 十 ， 


24. # 男 性 为 0， 女 性 为 1 
25. if(x gender=='M') or (x_gender =='m') or (x gender ==' 男 '): 


26. str_export += "0 

27. else: 

28. str_export += | 

2 

30. idx=0 

31. for g_ col in affect col list: 

32. r affect= cntkws jieba seg wrds(x_desc, affect dict[idx]) 
33. str_export +=",' + str(r_affect) 

34. idx += 1 

3 


36. dstfp.write(str export) 
37. dstfp.write(\n') 

38. dstfp.flush() 

39. dstfp.close() 


对 于 每 个 文本 而 言 ， 文 本 数据 都 被 转换 为 了 具有 相同 维度 的 数值 类 型 的 向 
量 ， 并 且 每 个 维度 具备 一 定 的 语言 学 意义 ， 因 此 可 以 进一步 进行 监督 学 习 过 程 
或 者 直接 进行 统计 分 析 。 


6. 机 器 学 习 模 型 的 训练 、 测 试 及 应 用 

机 器 学 习 方法 能 够 从 大 量 数据 中 挖掘 出 隐 含 的 规律 ， 并 依据 此 规律 对 未 来 
的 输入 数据 进行 预测 识别 。 机 器 学 习 模 型 分 为 有 监督 学 习 和 无 监督 学 习 
(prog\ml-1-kmeans.py)， 常 见 的 有 监督 学 习 模型 包括 分 类 (prog\ml-5-svm.py) 和 
回归 模型 (progml-4-svr.py)。 下 面 我 们 以 prog\ml-5-sym.py 为 例 ， 介 绍 机 器 学 
习 模 型 的 训练 和 应 用 的 主要 过 程 。 


from sklearn import svm 


自 变量 、 # 训 练 数据 的 自 变量 和 因 变 量 
training_x = fo 0, [1, 1], 13, 2], [2, 2]] 
| 因 变 量 一 -training y= [0,1 2,1 


ls 样本 的 
ee # 训 练 模型 变量 和 内 变 
机 器 学 习 算法 

四 mclf = sym.SVC(gamma='scale') 

训练 建立 clf.fit(training_x, training_y) 


学 习 模 型 
# 对 两 个 新 的 数据 样本 上 进行 预测 
testing x = [[2, 2], [1, 2]] 


result = clf.predict(testing_x) 
预测 新 样本 志 print("Predict: ", result) 
的 因 变量 


两 个 新 样本 
的 自 变 


一 般 来 说 ， 为 了 能 够 对 新 样本 进行 自动 预测 ， 我 们 需要 首先 训练 得 到 一 个 
预测 模型 ， 然 后 才 可 以 利用 预测 模型 进行 预测 。 为 了 训练 得 到 预测 模型 ， 我 们 
需要 获取 数据 ， 每 条 数据 是 针对 一 个 样本 ， 包 括 自 变 量 和 因 变 量 。 自 变量 一 般 
包括 多 个 ， 有 的 时 候 ， 也 把 一 个 自 变 量 叫 一 个 特征 ， 这 样 自 变 量 部 分 如 果 包 括 
多 个 自 变量 的 话 ， 也 被 称 为 特征 向 量 ， 因 变量 有 的 时 候 也 称 为 标注 或 者 输出 。 
训练 模型 的 过 程 ， 就 是 让 计算 机 自动 学 习 到 自 变量 和 因 变 量 之 间 的 映射 关系 ， 
这 样 在 应 用 的 时 候 ， 我 们 只 输入 新 样本 的 自 变量 ， 就 可 以 调用 训练 得 到 的 模 
型 ， 自 动 预测 出 该 新 样本 的 因 变 量 ， 也 就 是 上 面 展示 的 “训练 ”和 “预测 ”。 

上 面 的 例子 只 是 简单 介绍 了 训练 和 预测 的 过 程 ， 一 般 有 监督 的 机 器 学 习 实 
践 过 程 往往 都 包括 了 模型 训练 、 测 试 、 保 存 和 导入 应 用 四 大 环节 。 模 型 训练 和 
测试 主要 是 利用 数据 在 不 同 的 机 器 学 习 算法 上 进行 调试 ， 寻 找到 最 佳 的 预测 性 
能 的 机 器 学 习 算 法 及 其 参数 设 定 。 一 般 在 这 个 阶段 ， 从 原始 数据 开始 进行 特征 
提取 、 特 征 选 取 、 训 练 建 模 以 及 性 能 测试 。 整 个 过 程 是 不 断 往返 的 ， 也 就 是 


说 ， 根 据 性 能 测试 的 结果 ， 可 以 回溯 到 前 面 三 个 步骤 中 的 任何 一 个 步骤 进行 调 
整 。 为 了 对 模型 的 性 能 进行 测试 ， 一 般 把 所 有 数据 随机 分 为 训练 集 和 测试 集 ， 
它们 完全 分 开 没 有 重合 。 在 训练 集 上 进行 模型 的 学 习 训练 ， 之 后 在 测试 集 上 对 
模型 的 预测 性 能 进行 测试 。 在 测试 的 结果 上 ， 确 定 合适 的 算法 和 参数 设 定 ， 旬 
后 在 全 部 的 数据 集 上 建立 好 模型 并 保存 ， 以 便 后 续 导 入 应 用 。 类 似 地 ， 对 于 已 
经 建立 好 的 模型 ， 也 可 以 通过 导入 模型 进行 应 用 ， 对 于 后 续 任 意 一 个 没有 标注 
的 数据 样本 ， 只 要 能 够 提取 出 模型 要 求 的 输入 特征 ， 都 能 利用 现 有 模型 实现 对 
标注 的 预测 。 

下 面 以 生活 满意 度 预 测 模型 为 例 ， 说 明 模 型 的 训练 和 测试 过 程 。 为 了 建立 
生活 满意 度 预 测 模型 ， 我 们 需要 获得 每 个 被 试 介绍 自我 目前 情况 的 文本 以 及 生 
活 满意 度 得 分 〈 通 过 填写 生活 满意 度量 表 )， 数 据 的 采集 过 程 参见 data\ 生 活 满 
意 度 练习 .pdf。 我 们 可 以 把 每 个 人 的 自我 描述 的 那 段 文 本 看 做 是 输入 的 自 变 
量 ， 而 通过 问卷 测量 得 到 的 生活 满意 度 得 分 作为 因 变量 ， 和 希望 能 够 建立 一 个 利 
用 个 体 自我 描述 的 文本 实现 对 其 生活 满意 度 的 自动 预测 ， 

过 前 文 提 到 的 文本 词 频 统 计 方法 ， 我 们 能 够 从 每 个 被 试 的 自我 描述 的 文 
本 中 提取 词 频 特征 作为 自 变量 ， 而 生活 满意 度 得 分 作为 因 变量 。prog\vswls-S- 
train-save.py 利用 了 情感 词典 来 提取 个 体 的 词 频 特 征 ， 有 具体 提取 过 程 可 参考 第 
五 节 关 于 使 用 Jieba 进行 分 词 和 词 频 统 计 的 部 分 。 在 此 基础 上 ， 在 程序 中 将 个 
体 的 词 频 特征 作为 输入 变量 赋值 给 了 x_kws， 个 体 的 生活 满意 度 作 为 预测 变量 


赋值 给 y_score， 有 具体 代码 片段 如 下 所 示 : 
# 特 征 提 取 并 训练 模型 

x kws=|[] 

y_Score= | 


人 


dirs = '../data/swls/' 

subdir = os.listdir(dirs) 

for fin subdir: # 遍历 文件 夹 下 的 文件 
print(.', end=") 

9. Xx score, x gender, x desc = read swls file(dirs+f) 

10. item = feature extraction(x desc) 

ll. x kws.append(item ) 

12.  y_score.append((x score-5)/30) 
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Python 的 scikit-learn 库 是 一 个 开源 的 机 器 学 习 模 块 (https://scikit- 
learn.org.cn/)， 它 具有 各 种 常见 的 分 类 、 回 归 和 聚 类 算法 ， 可 以 直接 从 该 库 中 调 
用 对 应 的 函数 来 训练 机 器 学 习 模 型 ， 降 低 了 对 建 模 人 员 的 数学 能 力 和 计算 机 能 


力 的 要 求 。 利 用 sklearn 进行 模型 训练 的 代码 如 下 所 示 分 为 两 步 ， 第 一 步 指 定 使 


用 的 模型 ， 第 二 步 用 训练 集 数据 拟 合 模型 ， 调 用 岭 回归 模型 如 下 所 示 。 


1.，# 训 练 模型 
2. clf lasso = LassoCV() 
3. clf lasso.fit(x kws,y_ score) 


以 上 例 举 的 是 基础 的 模型 训练 过 程 ， 但 是 对 于 同一 个 数据 集 而 言 ， 不 同 的 
算法 模型 ， 甚 至 是 同一 个 模型 设置 的 不 同 超 参数 也 会 导致 模型 性 能 的 差异 。 因 
此 ， 还 需要 进一步 利用 测试 集 的 方法 来 确定 模型 和 超 参数 的 选择 。 

测试 集 是 由 一 批 已 经 完成 标注 的 数据 组 成 的 ， 既 有 模型 要 求 的 输入 数据 ， 
也 有 拟 预 测 对 象 的 真实 值 ， 模 型 可 以 基于 输入 数据 获得 对 应 的 预测 值 。 预 测 值 
与 真 值 之 间 的 相关 系数 可 以 作为 该 模型 的 预测 性 能 的 表现 之 一 ， 相 关系 数 越 大 
则 模型 性 能 越 好 。 在 生活 满意 度 项 目 中 ，prog\swls-3-train-test-score.py 文件 实 
现 了 对 于 模型 的 测试 。 同 样 以 岭 回 归 为 例 ， 在 该 程序 中 先 基于 训练 集 建 立 了 岭 
回归 模型 ， 再 基于 测试 集中 个 体 文本 的 词 频 特征 ， 实 现 对 个 体 的 生活 满意 度 的 
预测 ， 进 一 步 计 算出 预测 值 与 真 值 之 间 的 相关 系数 作为 测试 结果 ， 代 码 实 现 部 


分 如 下 所 示 。 


1. clf lasso = LassoCV() 

2. clf lasso.fit(training x, training y) 
3. result= clf lasso.predict(testing x) 
4. ab= np.array([testing y, result]) 

5. print(Lasso: ', np.corrcoef(ab)) 


通过 比较 具有 不 同 超 参数 的 模型 在 测试 集 上 的 效果 ， 我 们 可 以 选择 出 其 中 
表现 得 最 好 的 模型 ， 利 用 对 应 的 模型 和 设置 的 参数 在 全 部 数据 上 训练 出 最 终 模 
型 ， 导 出 成 模型 文件 ， 以 方便 后 续 的 应 用 。 在 prog\swls-5-train-save.py 程序 中 


代码 如 下 所 示 ， 以 便 后 续 的 调用 ， 实 现 对 个 体 生 活 满意 度 的 预测 。 
1， # 保 存 训练 得 到 的 模型 


mod file = '…../data/swls.mod 
joblib.dump(clf lasso, mod file) 
print(SWLS model saved!') 


在 建立 好 模型 并 导出 模型 文件 后 ， 就 可 以 在 新 获得 个 体 文本 表达 的 基础 上 
对 其 生活 满意 度 进 行 预测 ， 此 处 我 们 以 从 99 文章 网 下 载 下 来 的 文本 为 例 ， 对 文 
本 进行 特征 提取 和 生活 满意 度 预测 ， 实 现 模型 的 应 用 。 在 完成 了 对 各 文本 相同 
的 词 频 特征 提取 工作 后 ， 需 要 加 载 事 先 保存 下 来 的 模型 ， 然 后 以 词 频 特征 为 输 


FHS 


入 ， 对 生活 满意 度 进行 预测 ， 并 输出 得 分 ， 实 现 过 程 在 prog\swls-6-99wz- 


apply.py 中 。 特 征 提 取 和 得 分 预测 的 具体 代码 如 下 。 


# 特 征 提 取代 码 

testdirs = "../data/99wz/' 

testsubdir = os. listdir(testdirs) 

for fin testsubdir: # 裔 历 文 件 夹 下 的 文件 
print(testdirs+f) 
buf = open(testdirst+f, T, encoding="utf-8').read() 
item = feature_ extraction(buf) 
#print(item) 
apply_kws.append(item ) 

10. wz list.append(f) 
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12. # 得 分 预测 代码 

13. mod file = '../data/swls.mod 
14. clf= joblib.load(mod file) 

15. result = clf.predict(apply kws) 
16. print(result) 


7. 总 结 
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本 文 简 要 介绍 了 利用 Python 开展 大 数据 心理 学 研究 的 主要 过 程 ， 并 以 九 九 
文章 网 的 生活 满意 度 自动 预测 为 例 , 介绍 了 基于 文本 词 频 的 机 器 学 习 建 模 的 全 流 
程 。 结 合 本 文 介 绍 的 技术 ， 可 以 实现 对 网 络 用 户 的 熬夜 C2] 以 及 出 柜 与 否 [3] 的 研 
究 。 研究 者 可 以 利用 扑 虫 技术 实现 对 网 络 数 据 的 定向 仆 取 ,对 于 文本 数据 ， 可 以 
ee 
文本 数据 ,可 以 进一步 通过 Python 利用 有 监督 的 机 器 学 习 算 法 建立 模型 并 保存 ， 
以 便 未 来 在 相关 研究 当中 可 以 直接 调用 ,实现 对 心理 指标 的 自动 预测 ,并 在 此 基 
础 上 开展 更 多 的 心理 学 研究 。 
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